这篇文章挺有意思的,在已有的word embeddings
上学习一个从字符级别的序列上建立一个word embedding
。模型使用的是RNN
,双向的,输入是一个单词,输出就是一个向量。训练的时候输入都是已有word embedding
中lexicon
的单词,输入的ground truth
是原始的向量。
这么做的目的是希望能够解决UNK
(未登录词)的表示,它的理论假设是从字母组成语义是要遵循一系列的原则和规律,而这个双向RNN就是要学习这么一套原则,这样子见到UNK
的时候就可以更好地猜出它的word embedding
。
这种方法对于中文来说显得特别有效(文中提及),这可能是因为中文的基本元素是字,但是字已经带有语义信息了,普通的相加符合中文的组合逻辑,而英语的基本单位是字母,字母本身没有语义。由此想到是不是在中文里character-based Languange Model
效果更好。